【速報】AWS上でフルマネージドなデータカタログとETLを実現するサービス『AWS Glue』が発表されました! #reinvent #glue

【速報】AWS上でフルマネージドなデータカタログとETLを実現するサービス『AWS Glue』が発表されました! #reinvent #glue

Clock Icon2016.12.02

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

AWS re:Invent 2016のDAY2キーノートにて、フルマネージドなデータカタログとETLサービスとなる『AWS Glue』のリリースが発表されました!

aws-glue-01

これまでの状況

AWSのデータ分析における各種サービスはこれまでに数多くリリース・展開されて来ていましたが、一連の流れで見てみると幾つかピースが欠けている部分がありました。

aws-glue-04

今回新たにリリースされた『AWS Glue』を適用する事で、その欠けたピースを全て埋める事が可能となります。

aws-glue-05

AWS Glueとは

AWS Glueは、完全に管理されたETLサービスで、データストア間でデータを簡単に移動できます。 AWS Glueは、困難で時間のかかるデータの発見、変換、マッピング、およびジョブスケジューリングのタスクを簡素化し、自動化します。 AWS Glueは、使いやすいコンソールでデータを移動するプロセスをガイドし、データソースの理解、分析のためのデータの準備、データソースから宛先への信頼性の高いロードに役立ちます。

AWS Glueでは、Amazon S3やAmazon RDS、Amazon Redshiftと統合し、JDBC準拠のデータストアに接続する事が出来ます。データソースを自動的にクロールし、データフォーマットを識別し、スキーマと変換を提案するため、データフローを手作業でコーディングする時間を費やす必要が無くなる形となります。

AWS Glueでは、Python、Spark、Git、お気に入りの統合開発環境(IDE)など、既に知っているツールやテクノロジーを使用して、必要に応じてこれらの変換を編集し、他のAWS Glueユーザーと共有することも可能です。

AWS Glueは、ETLジョブをスケジュールし、必要なすべてのインフラストラクチャーをプロビジョニングし、スケーリングして、ETLジョブをあらゆる規模ですばやく効率的に実行します。 管理するサーバーはなく、ETLジョブによって消費されるリソースのみを支払うことになります。

機能に関する特徴

AWS Glueで紹介されている主な機能は以下の3つ。

1.データカタログの構築

AWS管理コンソールを使ってAWS Glueでデータ・ソースを登録する事が出来ます。

AWS Glueでは、JSON、CSV、Parquetなど、多くの一般的なソースフォーマットやデータタイプに対して、あらかじめ作成された分類子を使用してデータソースをクロールし、データカタログを構築する事が可能です。また、独自のclassifiersを追加したり、AWS Glueコミュニティからclassifierを選択してクローリング対象として追加する事も可能です。

aws-glue-07

2.ETLの生成と編集

データソースとターゲットを選択して、AWS GlueはPythonコードを生成してソースからデータを抽出し、データを変換し、ロードする、即ち『ETL処理』を実行します。自動生成されたコードでは、データにおけるバリデーションエラー等のケースを処理する事が可能です。コードはお気に入りのIDEを使って編集し、独自のサンプルデータでテストする事が可能です。AWS Glueユーザーと共有しているコードを参照し、活用する事も可能です。

screenshot-glue-step2-etl-generation

3.ジョブのスケジュールと実行

AWS Glueではジョブスケジューラも提供されています!

定期的に、トリガに応じて、またはAWS Lambdaイベントに対応してフローを実行できます。 AWS GlueはETLジョブをApache Sparkノードに自動的に配布するため、データ量が増えるにつれてETLの実行時間を一定に保つ事が可能となります。

また、以下の様な調整や柔軟な対応も可能となるようです。

  • ジョブの実行を適切な順序で調整
  • 失敗したジョブを自動的に再試行
  • 時間通りにジョブを完了させたり、コストを最小限に抑えるために必要なインフラストラクチャを柔軟に拡張

aws-glue-08

これまでの各種サービスをまさに『糊(Glue)』のように繋いで実現される『AWS上でのモダンデータアーキテクチャ』を示した図が以下となります。これはとてもとても楽しみなサービスとなりそうです。

aws-glue-06

 


 

早速使って・使い倒してみよう!と思ったのですが、このサービスは現時点(2016/12/02:Keynoteでのサービス発表時点)ではまだ正式リリースとはなっておらず、今後のリリース(Coming Soon. Stay Tuned.)となっているようです。下記サインアップフォームから最新の情報を入手する事が出来るようなので、当サービスに興味をお持ちの方はまずこちらで情報の登録を行っておいた方が良いかと思います。

aws-glue-09

という訳で、個人的にはかなーり楽しみなサービスが登場する運びとなりました。新たな情報が得られ次第、当ブログで継続して情報を発信して行きたいと思います。こちらからは以上です。

Share this article

facebook logohatena logotwitter logo

© Classmethod, Inc. All rights reserved.